Pearson vs Spearman 相关

核心区别

特性 Pearson 相关 Spearman 相关
衡量关系 线性关系强度 单调关系强度
计算基础 原始数值的协方差 秩次(排名)的相关性
分布要求 需要正态分布 无分布要求
异常值敏感性 高度敏感 不敏感(稳健)
统计效力 条件满足时更强 稳健性更好
适用范围 连续变量,线性关系 有序变量,单调关系

实际例子

假设数据:

Pearson: 会被 100 这个异常值严重影响,相关系数会偏低

Spearman: 只看排名(1, 2, 3, 4, 5),不受具体数值影响,能正确识别单调递增关系

选择原则

使用 Pearson 的情况:

使用 Spearman 的情况:

生物信息学应用

基因表达相关性分析通常优先选择 Spearman,原因:

  1. 表达量数据往往不是正态分布(右偏)
  2. 经常存在极端表达值
  3. 更关心表达趋势(共表达)而非精确线性关系
  4. RNA-seq 数据经过 log 转换后也可能有异常值

例外情况:如果数据已经过良好的标准化且确认接近正态分布,可以用 Pearson 获得更高的检测效力。